【基础知识十六】强化学习
一、任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”。 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四 ...
一、任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”。 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四 ...